Maxton‘s Blog

博客文档链接关于时间轴 English

返回

标签: #bellman optimality

2026年2月17日

RL学习笔记：贝尔曼最优公式

推导了贝尔曼最优方程（Bellman Optimality Equation）及其不动点性质，解析了Value Iteration的收敛原理（Contraction Mapping），并讨论了系统模型与奖励函数对最优策略的决定作用。

5 min 中文